现在,ceRNA,预测模型,WGCNA,预后分析等等已经成为生信入门级别的套路了,大多数纯生信的文章可能如今只能发2-3分的文章了。
最近,发现一篇非常熟悉的套路文章——miRNA预测模型,竟然是2020年7月份[IF:8.579]的。非常惊讶!接下来就好好解析这篇文章,看是否能学习到其中的奥秘呢?
本文通过从癌症基因组图谱(TCGA)数据库和GEO数据库中获得癌症患者的miRNA数据和临床信息,通过Logistic回归和高斯混合分析建立8-miRNA预测模型,并进一步利用验证数据集来验证预测模型的准确性。
研究对象
数据集:TCGA,GEO
下载TCGA_BRCA的miRNA数据,其中包括117名患者,637名正常人;
从GSE40525下载miRNA数据,其中包括
验证数据集:GSE40049,GSE19783,E-MTAB-1989
通过癌症组织和癌旁组织分组求取差异基因,以P<0.05,FDR<0.05为标准筛选差异基因。结果显示:分别从TCGA_TNBC,GSE40525中得到109,44个DEmiRNAs。并通过取交集的方式,求出共同的10个DEmiRNAs,分别是miR-139-5p、miR-10b-5p、miR-486-5p、miR-455-3p、miR-107、miR-146b-5p、miR-17-5p、miR-324-5p、miR-20a-5p和miR-142-3p(图1A-B)。
同时,在TCGA,GEO中,10个候选miRNAs水平在癌症与癌旁组织中的差异均有统计学意义(图1C-D)。
图1 10个候选miRNA在TCGA_TNBC和GSE40525数据集的差异表达
TNBC复发预测模型建立
结果显示,一共将基因聚类到8个聚类中,并且选取最高AUC值的第八个聚类作为TNBC复发的预测模型,其包括8个miRNAs(hsa-miR-139-5p, hsa-miR-107, hsa-miR-486-5p, hsa- miR-10b-5p, hsa-miR-146b-5p, hsa-miR-455-3p, hsa-miR-20a-5p and hsa-miR-324-5p)(图2A)。
因乳腺癌按分子分型,分为luminal A型,luminal B型,HER2型,TNBC型。接下来计算预测模型在各分子分型中的AUC值。
结果显示,此复发预测模型在TNBC型中的AUC值仅为0.8,并且比其他分子分型的要低(图2B)。
图2 logistic回归模型和AUC值结果
TCGA中预测模型的验证
取中位数1.602为截点分为低风险(n=56),高风险(n=55)两组(其中6个患者样本信息无OS和DFS,对其进行删除)(图3A-B)。并进行KM生存分析分别计算对应的总生存率与无病生存率。
结果显示,相比于低风险组,高风险组有更好的复发率和死亡率(图3C-D)。且预测模型的AUC值为0.8032,表明预测模型有较高的准确率,能显著提高预后价值(图3E)。
5
预测模型与临床特征的相关性
结果显示:hsa-miR-486-5p, hsa-miR-455-3p,hsa-miR-107表达量在两组的总生存率中具有显著差异(图 4A-B);而只有hsa-miR-139-5p表达量在在两组的无病生存率中具有显著差异(图 5A-B)。
这些结果表明hsa-miR-139-5p的表达量和TNBC患者的复发率有关,hsa-miR-486-5p, hsa-miR-455-3p,hsa-miR-107表达量和TNBC患者的生存率有关。
进一步也计算了miRNA表达量对TNM分期的影响。
结果显示只有hsa-miR-139-5p表达量在肿瘤Ⅰ-Ⅱ期和Ⅲ-Ⅳ期间有显著差异,并且与淋巴转移,远处转移相关(图6)。
以上结果表明,hsa-miR-139-5p可能在TNBC的进展和转移中发挥重要作用。
图4 8个miRNA的表达量对生存率的影响
图5 8个miRNA的表达量对无病生存率的影响
图6 8个miRNA的表达量对TNM分期的影响
6
富集分析
GSEA结果发现模型相关的miRNA在炎症和癌症转移相关通路中发挥作用。而前10个GO通路均与淋巴细胞活化,细胞间黏附,质膜的外侧有关,这些也是与炎症反应,肿瘤进展高度相关(图7A-B)。
为了进一步确认与模型相关的生物学功能,将从miRTarBase得到靶向基因,将基因与模型放在一起确认他们的生物学功能。结果显示最显著的通路与免疫系统,细胞反应,基因表达,癌症和信号的转导有关(图7C-D)。
以上结果表明,预测模型与炎症和癌症转移密切相关。这一发现可能是由于免疫逃逸促进了肿瘤复发,因此相对于低风险的患者而言,高风险患者有更高的复发率和死亡率。
7
GEO中预测模型的验证
先对数据集进行分组。GSE40049中以风险分数(中位数=-1.9938)分为高风险组(n=11)和低风险组(n=13)。GSE19783中以风险分数(中位数=-3371)分为高风险组(n=8)和低风险组(n=10)(图8A-B)。
然后通过KM生存分析发现,与低风险组相比,高风险组有更高的复发率(文中没有显示E-MTAB-1989的结果图)(图8C-D)。同时,验证数据集的AUC值为0.8961(GSE19783)和0.9062(GSE40049),而训练数据集的AUC值为0.8032(图8E)。
结论:8-miRNA预测模型有较高的准确性并能显著改善预后价值,且高风险组的复发率和死亡率高于低风险组。
图8 预测模型的预测结果